智能论文笔记

Understanding DDPM Latent Codes Through Optimal Transport

Valentin Khrulkov , Gleb Ryzhakov , Andrei Chertkov , Ivan Oseledets

分类： (统计)机器学习 | 人工智能 | 机器学习

2022-02-14

Diffusion models have recently outperformed alternative approaches to model the distribution of natural images, such as GANs. Such diffusion models allow for deterministic sampling via the probability flow ODE, giving rise to a latent space and an encoder map. While having important practical applications, such as estimation of the likelihood, the theoretical properties of this map are not yet fully understood. In the present work, we partially address this question for the popular case of the VP SDE (DDPM) approach. We show that, perhaps surprisingly, the DDPM encoder map coincides with the optimal transport map for common distributions; we support this claim theoretically and by extensive numerical experiments.

translated by 谷歌翻译

Examining Large Pre-Trained Language Models for Machine Translation: What You Don't Know About It

Lifeng Han , Gleb Erofeev , Irina Sorokina , Serge Gladkoff , Goran Nenadic

分类：自然语言处理 | 人工智能

2022-09-15

预训练的语言模型（PLM）通常会利用单语和多语言数据集的优势，该数据集可以在线免费获得，以在部署到特定任务中之前获取一般或混合域知识。最近提出了超大型PLM（XLPLM），以声称对较小尺寸的PLM（例如机器翻译（MT）任务）声称最高性能。这些XLPLM包括Meta-AI的WMT21密度24宽-EN-X和NLLB。 \ textIt {在这项工作中，我们检查XLPLM是否绝对优于较小尺寸的PLM，在针对特定域的MTS中进行微调。}我们使用了不同大小的两个不同的内域数据：商业自动化内部数据和\ textbf {临床}在WMT2022上共享了Clinspen2022挑战的任务数据。我们选择受欢迎的玛丽安·赫尔辛基（Marian Helsinki）作为较小尺寸的PLM和来自Meta-AI的两个大型大型转换器作为XLPLM。我们的实验研究表明，1）在较小尺寸的内域商业汽车数据上，XLPLM WMT21密度24宽24宽-EN-X确实显示出使用S \ TextSc {acre} BLEU和HLEU指标的评估得分要好得多。玛丽安（Marian），即使其得分提高率低于微调后的玛丽安（Marian）； 2）在相对较大尺寸的精心准备的临床数据微调上，XLPLM NLLB \ textbf {倾向于失去}其优于较小尺寸的Marian在两个子任务（临床术语和本体概念）上使用Clinspen提供的指标Meteor，Meteor，Marian的优势。 Comet和Rouge-L，并且在所有指标上完全输给了Marian，包括S \ textsc {acre} bleu and Bleu； 3）\ textbf {指标并不总是同意}在相同的任务上使用相同的模型输出相互同意。

translated by 谷歌翻译

CADOps-Net: Jointly Learning CAD Operation Types and Steps from Boundary-Representations

Elona Dupont , Kseniya Cherenkova , Anis Kacem , Sk Aziz Ali , Ilya Arzhannikov , Gleb Gusev , Djamila Aouada

分类：计算机视觉

2022-08-22

3D反向工程是一个备受追捧的人，但在计算机辅助设计（CAD）行业中却没有完全实现。目的是恢复CAD模型的施工历史。从CAD模型的边界表示（B-REP）开始，本文提出了一个新的深神经网络CADOPS-NET，该网络共同学习了CAD操作类型和分解为不同的CAD操作步骤。这种联合学习允许将B-REP划分为在同一施工步骤中由各种CAD操作创建的部分；因此，提供相关信息以进一步恢复设计历史记录。此外，我们提出了新颖的CC3D-OPS数据集，其中包括带有CAD操作类型标签和步骤标签注释的37K $ CAD型号。与现有数据集相比，CC3D-OPS模型的复杂性和种类更接近用于工业目的的模型。我们对拟议的CC3D-OPS和公开融合360数据集进行的实验证明了Cadops-NET相对于最先进的竞争性能，并确认了CAD操作类型和步骤联合学习的重要性。

translated by 谷歌翻译

Towards OOD Detection in Graph Classification from Uncertainty Estimation Perspective

Gleb Bazhenov , Sergei Ivanov , Maxim Panov , Alexey Zaytsev , Evgeny Burnaev

分类：机器学习

2022-06-21

用于图形分类的分布外检测的问题远未解决。现有模型往往对OOD示例过高自信，或者完全忽略检测任务。在这项工作中，我们从不确定性估计的角度考虑了这个问题，并进行了几种最近提出的方法的比较。在我们的实验中，我们发现没有通用的OOD检测方法，并且重要的是考虑图表和预测分类分布。

translated by 谷歌翻译

Stereo Magnification with Multi-Layer Images

Taras Khakhulin , Denis Korzhenkov , Pavel Solovev , Gleb Sterkin , Timotei Ardelean , Victor Lempitsky

分类：计算机视觉

2022-01-13

代表具有多个半透明彩色图层的场景是实时新型视图合成的流行和成功的选择。现有方法在平面或球形的规则间隔层上推断颜色和透明度值。在这项工作中，我们介绍了一种基于多个半透明层的新视图综合方法，具有场景适应的几何形状。我们的方法在两个阶段中介绍了立体对的这些表示。第一阶段从给定的一对视图中缩小了少数数据自适应层的几何形状。第二阶段为这些层的颜色和透明度值产生了新颖的视图合成的最终表示。重要的是，两个阶段都通过可差异化的渲染器连接，并以端到端的方式训练。在实验中，我们展示了所提出的方法在使用定期间隔的层上的优势，没有适应场景几何形状。尽管在渲染过程中较快的数量次数，但我们的方法也优于基于隐式几何表示的最近提出的IBRNET系统。查看https://samsunglabs.github.io/stereolayers的结果。

translated by 谷歌翻译

Consistent Estimation for PCA and Sparse Regression with Oblivious Outliers

Tommaso d'Orsi , Chih-Hung Liu , Rajai Nasser , Gleb Novikov , David Steurer , Stefan Tiegel

分类：机器学习 | (统计)机器学习

2021-11-04

我们开发机器以设计有效的可计算和一致的估计，随着观察人数而达到零的估计误差，因为观察的次数增长，当面对可能损坏的答复，除了样本的所有品，除了每种量之外的ALL。作为具体示例，我们调查了两个问题：稀疏回归和主成分分析（PCA）。对于稀疏回归，我们实现了最佳样本大小的一致性$ n \ gtrsim（k \ log d）/ \ alpha ^ $和最佳错误率$ o（\ sqrt {（k \ log d）/（n \ cdot \ alpha ^ 2））$ N $是观察人数，$ D $是尺寸的数量，$ k $是参数矢量的稀疏性，允许在数量的数量中为逆多项式进行逆多项式样品。在此工作之前，已知估计是一致的，当Inliers $ \ Alpha $ IS $ O（1 / \ log \ log n）$，即使是（非球面）高斯设计矩阵时也是一致的。结果在弱设计假设下持有，并且在这种一般噪声存在下仅被D'Orsi等人最近以密集的设置（即一般线性回归）显示。 [DNS21]。在PCA的上下文中，我们在参数矩阵上的广泛尖端假设下获得最佳错误保证（通常用于矩阵完成）。以前的作品可以仅在假设下获得非琐碎的保证，即与最基于的测量噪声以$ n $（例如，具有方差1 / n ^ 2 $的高斯高斯）。为了设计我们的估算，我们用非平滑的普通方（如$ \ ell_1 $ norm或核规范）装备Huber丢失，并以一种新的方法来分析损失的新方法[DNS21]的方法[DNS21]。功能。我们的机器似乎很容易适用于各种估计问题。

translated by 谷歌翻译

cushLEPOR: customising hLEPOR metric using Optuna for higher agreement with human judgments or pre-trained language model LaBSE

Lifeng Han , Irina Sorokina , Gleb Erofeev , Serge Gladkoff

分类：自然语言处理 | 人工智能 | 机器学习

2021-08-21

人类评估一直昂贵，而研究人员则努力信任自动指标。为了解决这个问题，我们建议通过采取预先接受训练的语言模型（PLM）和有限的人类标记分数来定制传统指标。我们首先重新介绍Hlepor度量因子，然后是我们开发的Python版本（移植），这实现了Hlepor度量中的加权参数的自动调整。然后我们介绍了使用Optuna超参数优化框架的定制Hlepor（Cushlepor），以便更好地协议为预先接受训练的语言模型（使用Labse），这是关于Cushlepor的确切MT语言对。我们还在英语 - 德语和汉英语言对基于MQM和PSQM框架的专业人体评估数据进行了优化的曲位波。实验研究表明，Cushlepor可以提升Hlepor对PLMS的更好的表演，如Labse，如Labse的更好的成本，以及更好的人类评估协议，包括MQM和PSQM得分，并且比Bleu（AT \ URL的数据提供更好的表演（HTTPS：// github.com/poethan/cushlepor}）。官方结果表明，我们的提交赢得了三种语言对，包括\ textbf {英语 - 德语}和\ textbf {中文 - 英文}通过cushlepor（lm）和\ textbf {英语 - 俄语}上\ textit {通过hlepor ted}域。

translated by 谷歌翻译

CoLES: Contrastive Learning for Event Sequences with Self-Supervision

Dmitrii Babaev , Ivan Kireev , Nikita Ovsov , Mariya Ivanova , Gleb Gusev , Ivan Nazarov , Alexander Tuzhilin

分类：机器学习

2020-02-19

我们解决了现实世界用户生成的离散事件序列上的自我监督学习问题。自我监督的学习将来自原始数据的复杂信息包含在低维固定长度矢量表示中，这些信息可以轻松地应用于各种下游机器学习任务中。在本文中，我们提出了一种新方法“ COLES”，该方法将以前用于音频和计算机视觉域的对比度学习适应自我监督的设置中的离散事件序列域。我们根据大型欧洲金融服务公司的交易序列部署了COLES嵌入。 COLES嵌入的用法显着提高了预先存在的模型在下游任务上的性能，并产生了巨大的财务收益，每年以数亿美元的价格衡量。我们还在几个公共事件序列数据集上评估了COLES，并表明COLES表示在不同的下游任务上始终超过其他方法。

translated by 谷歌翻译

CatBoost: unbiased boosting with categorical features

Liudmila Prokhorenkova , Gleb Gusev , Aleksandr Vorobev , Anna Veronika Dorogush , Andrey Gulin

分类：

2017-06-28

This paper presents the key algorithmic techniques behind CatBoost, a new gradient boosting toolkit. Their combination leads to CatBoost outperforming other publicly available boosting implementations in terms of quality on a variety of datasets. Two critical algorithmic advances introduced in CatBoost are the implementation of ordered boosting, a permutation-driven alternative to the classic algorithm, and an innovative algorithm for processing categorical features. Both techniques were created to fight a prediction shift caused by a special kind of target leakage present in all currently existing implementations of gradient boosting algorithms. In this paper, we provide a detailed analysis of this problem and demonstrate that proposed algorithms solve it effectively, leading to excellent empirical results.

translated by 谷歌翻译